Panoptic Part Segmentation (PPS) unifies panoptic segmentation and part segmentation into one task. Previous works utilize separated approaches to handle thing, stuff, and part predictions without shared computation and task association. We aim to unify these tasks at the architectural level, designing the first end-to-end unified framework named Panoptic-PartFormer. Moreover, we find the previous metric PartPQ biases to PQ. To handle both issues, we make the following contributions: Firstly, we design a meta-architecture that decouples part feature and things/stuff feature, respectively. We model things, stuff, and parts as object queries and directly learn to optimize all three forms of prediction as a unified mask prediction and classification problem. We term our model as Panoptic-PartFormer. Secondly, we propose a new metric Part-Whole Quality (PWQ) to better measure such task from both pixel-region and part-whole perspectives. It can also decouple the error for part segmentation and panoptic segmentation. Thirdly, inspired by Mask2Former, based on our meta-architecture, we propose Panoptic-PartFormer++ and design a new part-whole cross attention scheme to further boost part segmentation qualities. We design a new part-whole interaction method using masked cross attention. Finally, the extensive ablation studies and analysis demonstrate the effectiveness of both Panoptic-PartFormer and Panoptic-PartFormer++. Compared with previous Panoptic-PartFormer, our Panoptic-PartFormer++ achieves 2% PartPQ and 3% PWQ improvements on the Cityscapes PPS dataset and 5% PartPQ on the Pascal Context PPS dataset. On both datasets, Panoptic-PartFormer++ achieves new state-of-the-art results with a significant cost drop of 70% on GFlops and 50% on parameters. Our models can serve as a strong baseline and aid future research in PPS. Code will be available.
translated by 谷歌翻译
Spiking neural networks (SNNs) are promising brain-inspired energy-efficient models. Recent progress in training methods has enabled successful deep SNNs on large-scale tasks with low latency. Particularly, backpropagation through time (BPTT) with surrogate gradients (SG) is popularly used to achieve high performance in a very small number of time steps. However, it is at the cost of large memory consumption for training, lack of theoretical clarity for optimization, and inconsistency with the online property of biological learning and rules on neuromorphic hardware. Other works connect spike representations of SNNs with equivalent artificial neural network formulation and train SNNs by gradients from equivalent mappings to ensure descent directions. But they fail to achieve low latency and are also not online. In this work, we propose online training through time (OTTT) for SNNs, which is derived from BPTT to enable forward-in-time learning by tracking presynaptic activities and leveraging instantaneous loss and gradients. Meanwhile, we theoretically analyze and prove that gradients of OTTT can provide a similar descent direction for optimization as gradients based on spike representations under both feedforward and recurrent conditions. OTTT only requires constant training memory costs agnostic to time steps, avoiding the significant memory costs of BPTT for GPU training. Furthermore, the update rule of OTTT is in the form of three-factor Hebbian learning, which could pave a path for online on-chip learning. With OTTT, it is the first time that two mainstream supervised SNN training methods, BPTT with SG and spike representation-based training, are connected, and meanwhile in a biologically plausible form. Experiments on CIFAR-10, CIFAR-100, ImageNet, and CIFAR10-DVS demonstrate the superior performance of our method on large-scale static and neuromorphic datasets in small time steps.
translated by 谷歌翻译
大多数知识图(kgs)是不完整的,这激发了一个重要的研究主题,以自动补充知识图。但是,对知识图完成(KGC)模型的评估通常会忽略不完整性 - 测试集中的事实对所有未知三重态进行了排名,这些三胞胎可能包含大量不包括KG中的丢失事实。将所有未知的三胞胎视为false被称为封闭世界的假设。这种封闭世界的假设可能会对评估指标的公平性和一致性产生负面影响。在本文中,我们研究了在更现实的环境下的KGC评估,即开放世界的假设,其中未知的三胞胎被认为包括许多未包含在培训或测试集中的缺失事实。对于当前最常用的指标,例如平均值等级(MRR)和HITS@K,我们指出,在开放世界假设下,它们的行为可能是出乎意料的。具体而言,由于没有太多缺失的事实,它们的数字就模型的真实强度显示出对数趋势,因此,在反映真正的模型改进方面,度量增加可能微不足道。此外,考虑到这一方差,我们表明报告数字中的降解可能会导致不同模型之间的不正确比较,因为更强的模型可能具有较低的度量。我们在理论上和实验上都验证了现象。最后,我们建议解决此问题的可能原因和解决方案。我们的代码和数据可在https://github.com/graphpku/open-world-kg上找到。
translated by 谷歌翻译
自适应梯度算法借用重球加速度的移动平均思想,以估计梯度的准确梯度矩和二阶矩,以加速收敛。然而,在理论上,在理论上,在许多经验情况下,在自适应梯度环境下,Nesterov加速度比重球加速度快的速度快得多。在这项工作中,我们提出了Adan的自适应Nesterov动量算法,以有效加快深层神经网络的训练。 Adan首先重新制定了Nesterov加速度,以开发新的Nesterov动量估计(NME)方法,该方法避免了外推点上计算梯度的额外计算和内存开销。然后,Adan采用NME来估计自适应梯度算法中梯度的一阶和二阶时刻,以进行收敛加速。此外,我们证明Adan在$ O(\ epsilon^{ - 3.5})内找到了$ \ epsilon $ - 附近的一阶固定点,$最著名的下限。广泛的实验结果表明,Adan超过了视觉变压器(VIT)和CNN上的相应SOTA优化器,并为许多流行网络设置了新的SOTA,例如Resnet,Convnext,Vit,Vit,Swin,Mae,Mae,LSTM,LSTM,Transformer-XL和BERT,以及BERT和BERT和BERT 。更令人惊讶的是,Adan可以利用SOTA优化器的一半培训成本(时代)在E.T.C. Vit和Resnet上获得更高或可比的性能,并且还显示出对大型Minibatch尺寸的宽容,例如1K到32K。我们希望Adan能够通过降低培训成本并减轻尝试各种架构的不同优化者的工程负担来为深度学习的发展做出贡献。代码将在https://github.com/sail-sg/adan上发布。
translated by 谷歌翻译
可进入的模型可以通过在表示理论和特征领域的语言中制定均衡性要求来提供非常通用和灵活的均衡性,这对许多视觉任务都是有效的。但是,由于3D旋转的数学更复杂,因此在2D情况下得出3D旋转模型要困难得多。在这项工作中,我们采用部分差分运算符(PDOS)来模型3D滤波器,并得出了通用的可检测3D CNN,称为PDO-S3DCNNS。我们证明,模棱两可的过滤器受线性约束的约束,可以在各种条件下有效地解决。据我们所知,PDO-S3DCNNS是3D旋转的最通用的CNN,因为它们涵盖了所有$ SO(3)$及其表示的所有常见子组,而现有方法只能应用于特定的组和特定组和表示。广泛的实验表明,我们的模型可以很好地保留在离散域中的均衡性,并且在SHREC'17检索和ISBI 2012分割任务上的表现都超过了以前的网络复杂性。
translated by 谷歌翻译
由于问题过度问题,大多数现有的图形神经网络只能使用其固有有限的聚合层捕获有限的依赖性。为了克服这一限制,我们提出了一种新型的图形卷积,称为图形隐式非线性扩散(GIND),该卷积隐含地可以访问邻居的无限啤酒花,同时具有非线性扩散的自适应聚集特征,以防止过度张开。值得注意的是,我们表明,学到的表示形式可以正式化为显式凸优化目标的最小化器。有了这个属性,我们可以从优化的角度从理论上表征GIND的平衡。更有趣的是,我们可以通过修改相应的优化目标来诱导新的结构变体。具体而言,我们可以将先前的特性嵌入到平衡中,并引入跳过连接以促进训练稳定性。广泛的实验表明,GIND擅长捕获长期依赖性,并且在具有非线性扩散的同粒细胞和异性图上表现良好。此外,我们表明,我们模型的优化引起的变体可以提高性能并提高训练稳定性和效率。结果,我们的GIND在节点级别和图形级任务上都获得了重大改进。
translated by 谷歌翻译
链接预测是图神经网络(GNN)的重要应用。链接预测的大多数现有GNN基于一维Weisfeiler-Lehman(1-WL)测试。 1-wl-gnn首先通过迭代的相邻节点特征来计算中心,然后通过汇总成对节点表示来获得链接表示。正如先前的作品所指出的那样,这两步过程会导致较低的区分功能,因为自然而然地学习节点级表示而不是链接级别。在本文中,我们研究了一种完全不同的方法,该方法可以基于\ textit {二维WEISFEILER-LEHMAN(2-WL)测试直接获得节点对(链接)表示。 2-WL测试直接使用链接(2个小说)作为消息传递单元而不是节点,因此可以直接获得链接表示。我们理论上分析了2-WL测试的表达能力以区分非晶状体链接,并证明其优越的链接与1-WL相比。基于不同的2-WL变体,我们提出了一系列用于链路预测的新型2-WL-GNN模型。在广泛的现实数据集上进行的实验证明了它们对最先进的基线的竞争性能以及优于普通1-WL-GNN的优势。
translated by 谷歌翻译
本文侧重于培训无限层的隐含模型。具体而言,以前的作品采用隐式差分,并解决后向传播的精确梯度。但是,是否有必要计算训练的这种精确但昂贵的渐变?在这项工作中,我们提出了一种新颖的梯度估计,用于隐式模型,命名为Phantom梯度,1)用于精确梯度的昂贵计算; 2)提供了对隐式模型培训的凭经质优选的更新方向。理论上,理论上可以分析可以找到损失景观的上升方向的条件,并基于阻尼展开和Neumann系列提供幻象梯度的两个特定实例化。大规模任务的实验表明,这些轻质幻像梯度大大加快了培训隐式模型中的后向往大约1.7倍,甚至基于想象成上的精确渐变来提高对方法的性能。
translated by 谷歌翻译
主要包含基于灵敏度的鲁棒性和空间稳健性的对抗鲁棒性,在鲁棒的广泛化中起不可或缺的部分。在本文中,我们努力设计策略以实现普遍的对抗性鲁棒性。为了达到这个目标,我们首先通过将本地和全球空间漏洞结合到一种空间攻击和对抗训练来实现现有的空间鲁棒性方法的较少研究的空间鲁棒性。基于这一探索,我们进一步提出了自然准确性,敏感性和不同的空间稳健性之间的全面关系,从强大的表现的角度支持的强大证据支持。更重要的是,为了将不同稳健性的相互影响平衡到一个统一的框架中,我们将\ Textit {Pareto标准}纳入对抗的鲁棒性分析,产生了一种称为\ Texit {Pareto对抗性培训}的新策略。由此产生的Pareto Front,这组最佳解决方案,在天然精度和不同的对抗鲁棒性中提供了最佳平衡,在未来普遍鲁棒性的解决方案中脱落。据我们所知,我们是第一个通过多目标优化考虑普遍对抗的鲁棒性。
translated by 谷歌翻译
尖峰神经网络(SNNS)是脑激发的模型,可在神经形状硬件上实现节能实现。然而,由于尖刺神经元模型的不连续性,SNN的监督培训仍然是一个难题。大多数现有方法模仿人工神经网络的BackProjagation框架和前馈架构,并在尖峰时间使用代理衍生物或计算梯度来处理问题。这些方法累积近似误差,或者仅通过现有尖峰被限制地传播信息,并且通常需要沿着具有大的内存成本和生物言行的时间步长的信息传播。在这项工作中,我们考虑反馈尖刺神经网络,这些神经网络更为大脑,并提出了一种新的训练方法,不依赖于前向计算的确切反向。首先,我们表明,具有反馈连接的SNN的平均触发速率将沿着时间的时间逐渐发展到均衡状态,这沿着定点方程沿着时间延续。然后通过将反馈SNN的前向计算作为这种等式的黑匣子求解器,并利用了方程上的隐式差异,我们可以计算参数的梯度而不考虑确切的前向过程。以这种方式,向前和向后程序被解耦,因此避免了不可微分的尖峰功能的问题。我们还简要介绍了隐含分化的生物合理性,这只需要计算另一个平衡。在Mnist,Fashion-Mnist,N-Mnist,CiFar-10和CiFar-100上进行了广泛的实验,证明了我们在少量时间步骤中具有较少神经元和参数的反馈模型的方法的优越性。我们的代码是在https://github.com/pkuxmq/ide-fsnn中获得的。
translated by 谷歌翻译